APPEARED

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Datos

LAST ACTIVITY

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Teniendo en cuenta las graficas de la variable ‘lastActivity’ podemos inferir que:

  • Tanto el histograma como el gráfico de densidad exhiben un sesgo hacia la derecha, lo que indica una clara asimetría en la distribución de los datos y una cola más larga hacia los valores superiores, evidenciando que la distribución no es normal, afirmacion que es ratficada en el grafico Q-Q

  • Por otro lado, aunque el Boxplot no muestra valores atípicos, sí revela un sesgo hacia los valores altos de la variable.

Datos

NUMBER OF USERS

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Considerando las gráficas analizadas, se puede concluir que la variable ‘numberOfUser’ exhibe características distintivas:

  • Tanto el gráfico Q-Q como el Boxplot revelan la existencia de numerosos valores atípicos (outliers). Esta observación sugiere que los datos presentan una gran variabilidad y no se distribuyen normalmente, ya que los valores extremos afectan la normalidad de la distribución.

  • Además, el histograma y el gráfico de densidad muestran un sesgo notable hacia la izquierda. Este sesgo indica que hay una concentración significativa de valores en el extremo inferior de la escala, lo que contribuye aún más a la falta de normalidad en los datos.

Datos

TYPE

Rows

Grafico de barras

Rows

Conclusiones

En este análisis de la variable “type” en nuestro conjunto de datos, se identifico patrones y tendencias significativas que arrojan luz sobre la composicion de esta misma. Destaca en gran medida la presencia de la categoría “pl”,es decir, lenguaje de programacion que constituye la categoría dominante con una frecuencia absoluta de 1660 elementos, representando aproximadamente el 77.61% del conjunto lo cual nos dice su concurrencia en toda la base datos y lo importancia en la misma.

Datos

COUNTRY

Rows

Grafico de torta

Rows

Conclusiones

Se observa una distribución diversa de países de origen entre los elementos de nuestro conjunto. Entre los países más representados, destacan Estados Unidos, Reino Unido y Canadá, que juntos conforman la mayoría de las entradas. Esto sugiere que nuestro conjunto de datos tiene una fuerte presencia de elementos relacionados con estas tres naciones.

La categoría más frecuente es “United States” (Estados Unidos), con una frecuencia absoluta de 1494, lo que representa aproximadamente el 69.85% del conjunto de datos en términos de procedencia geográfica. Le sigue “United Kingdom” (Reino Unido) con una frecuencia absoluta de 85 y “Canada” (Canadá) con 69.

Datos

WEBSITE

Rows

Grafico de barras

Rows

Conclusiones

Basado en los resultados de la tabla de frecuencia absoluta y relativa de la variable “website”, se puede concluir que la mayoría de los lenguajes de programación en nuestro conjunto de datos tienen un sitio web asociado. Específicamente, el 67.42% de los lenguajes de programación no tienen un sitio web, mientras que el 32.59% si lo tienen.

Esto sugiere que no hay tanta presencia de sitios web asociados a los lenguajes de programacion no es común entre los lenguajes de programación en el conjunto de datos. La existencia de sitios web puede ser un indicador de la accesibilidad y disponibilidad de información adicional sobre estos lenguajes, lo que puede ser valioso para los desarrolladores y la comunidad en general.

Datos

TABLAS DE CONTINGENCIA

Rows

Tablas de contigencia 1

Argentina Australia Austria Belgium Brazil Canada China Czech Republic Denmark England Finland France Germany India Israel Italy Japan Netherlands New Zealand Norway Poland Russia Scotland Spain Sweden Switzerland United Kingdom United States unknown Unknown Various
application 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 39 1 3 3
binaryDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 16 0 0 6
database 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0
dataNotation 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3 25 0 0 1
editor 0 1 0 0 0 1 1 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 23 0 0 4
esolang 0 3 0 0 0 1 0 0 0 1 0 1 2 2 1 0 0 0 0 0 1 0 0 0 0 0 1 17 0 4 0
grammarLanguage 1 2 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 22 0 0 2
library 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 4
packageManager 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18 0 2 4
pl 1 18 6 5 9 58 5 3 11 10 5 38 47 3 6 24 22 4 5 6 8 9 3 2 17 20 76 1147 0 58 34
protocol 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0
queryLanguage 0 0 0 0 0 0 0 0 0 0 1 0 2 0 0 0 0 0 0 1 0 0 0 0 0 0 0 37 0 2 1
template 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 18 0 1 4
textDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 17 0 2 1
textMarkup 0 1 0 1 0 3 0 1 0 0 0 1 3 0 0 0 1 1 0 0 0 0 0 0 0 1 1 38 0 4 2
xmlFormat 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 29 0 0 1

Tabla de contigencia 2

NO YES
Argentina 0 3
Australia 18 8
Austria 5 1
Belgium 2 4
Brazil 5 5
Canada 39 30
China 3 3
Czech Republic 2 5
Denmark 8 3
England 10 5
Finland 3 4
France 29 13
Germany 45 18
India 0 5
Israel 5 2
Italy 17 7
Japan 18 5
Netherlands 3 3
New Zealand 5 0
Norway 6 2
Poland 6 4
Russia 2 7
Scotland 3 0
Spain 0 4
Sweden 11 7
Switzerland 19 4
United Kingdom 62 23
United States 1065 429
unknown 0 1
Unknown 31 45
Various 20 47

Tabla de contingencia 3

NO YES
application 23 28
binaryDataFormat 15 9
database 15 4
dataNotation 21 14
editor 16 18
esolang 18 16
grammarLanguage 21 11
library 1 16
packageManager 1 25
pl 1184 476
protocol 16 5
queryLanguage 27 17
template 12 17
textDataFormat 18 5
textMarkup 25 33
xmlFormat 29 3

INTERVALO DE CONFIANZA PARA LA MEDIA

Rows

Intervalos de confianza para la media

Rows

Pregunta problema

Se tiene una base de datos con los años de aparición de los lenguajes de programación entre los años 1960 y 2023, los cuales presentan una desviación estándar de 16.28. Si se tiene una muestra aleatoria de 2139 lenguajes, los cuales en promedio aparecieron en el año 1996.63, calcule un intervalo de confianza del 90% para el verdadero año de aparición medio de los lenguajes de programación

Respuesta

  • Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la media poblacional, teniendo conocimiento de la desviación típica de la población de la variable appeared. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico.

  • Podemos concluir que, con un nivel de confianza del 90%, la media poblacional del año de aparición de los lenguajes de programación de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21.

INTERVALO DE CONFIANZA PARA VARIANZA Y DESVIACION

Rows

Intervalos de confianza para la varianza

Intervalos de confianza para la desviacion

Rows

Pregunta problema

Se tiene una muestra aleatoria de 2139 tecnologías informáticas con sus respectivos años de última modificación, los cuales presentan una desviación típica de 16.92. Teniendo esto en cuenta, calcule un intervalo de confianza del 95% para la varianza y la desviación estándar

Respuesta

  • Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la varianza y la desviación, teniendo conocimiento de la desviación típica de la población de la variable LASTACTIVITY. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico para los dos estadísticos.

  • Podemos concluir que, con un nivel de confianza del 95%, la varianza poblacional del último año de modificación de las tecnologías informáticas de nuestra base de datos se encuentra entre los valores de 269.96 y 304.36.

  • Por otro lado, la desviación poblacional de la variable LASTACTIVITY podemos afirmar que se encuentra en un rango de 15.95 y 17.98 con un nivel de confianza del 95%.

DIFERENCIA ENTRE PROPORCIONES

Rows

Diferencia de proporciones

Rows

Pregunta problema

En una muestra de paises donde se les encuesto que lenguaje de tipo de lenguaje de programacion usaron, la muestra contiene 1494 de estados unidos, donde se uso el lenguaje de programacion pl 1147; y reino unido 85 donde 76 eran pl. Calcule un intervalo de confianza de 90% para la diferencia entre la proporcion entre el tipo de lenguaje de programacion en estos paises ¿Hay una diferencia significativa entre las dos proporciones?

Respuesta

  • Podemos concluir que con un nivel de confianza del 90% diferencia de las proporciones del tipo de lenguaje que mas se usaba en la epoca de nuestra base de datos se encuentra entre los valores de -0.1841 y -0.0686

  • En resumen, el intervalo de confianza indica que hay una diferencia significativa en las proporciones del tipo de lenguaje de programación entre los dos grupos, y esta diferencia sugiere que el tipo de lenguaje era más común en Estados Unidos que en el Reino Unido en la época de tu base de datos.

PROPORCION

Rows

Diferencia de proporciones

Rows

Pregunta problema

En una muestra aleatoria 2139 de un tipo lenguajes de programacion se encuentra que usan el tipo de lenguaje pl en una razon de 1660 para uso de desarrollo. Calcule el intervalo de confianza del 99% para la proporcion de tipos de lenguajes de programacion.

Respuesta

  • En resumen, con un nivel de confianza del 99%, podemos concluir que la proporción de uso del tipo de lenguaje “pl” en la población se encuentra muy probablemente dentro del intervalo [0.7528, 0.7993], y el estimado de la proporción en la muestra es aproximadamente 0.7761.

APPEARED - LAST_ACTIVITY

Rows

Dispersion

Residuos Estandarizados

Q-Q

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

APPEARED - NUMBER OF USERS

Rows

Dispersion

Residuos Estandarizados

Q-Q

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

LAST_ACTIVITY - NUMBER OF USERS

Rows

Dispersion

Residuos Estandarizados

Q-Q

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

APPEARED - TYPE

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

LAST_ACTIVITY - TYPE

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

NUMBER OF USERS - TYPE

Rows

Boxplots

Boxplots escala log10

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

NUMBER OF USERS - COUNTRY

Rows

Boxplots

Boxplots escala log10

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

LAST_ACTIVITY - COUNTRY

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

APPEARED - COUNTRY

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

APPEARED - WEBSITE

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

LAST_ACTIVITY - WEBSITE

Rows

Boxplots

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

NUMBER OF USERS - WEBSITE

Rows

Boxplots

Boxplots escala log10

Beeswarm

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Estadisticos

---
title: "TECNOLOGIAS, HERRAMIENTAS Y LENGUAJES DE PROGRAMACION 1960-2023"
output: 
  flexdashboard::flex_dashboard:
    orientation: columns
    vertical_layout: fill
    social: [ "twitter", "facebook" ]
    source_code: embed
---
```{r setup, include=FALSE}

library(flexdashboard)
library(readxl)
library(tidyverse)
library(plotly)
library(knitr)
library(DT)
library(ggbeeswarm)


Data <- read_excel("Data.xlsx")

# Calculo del numero de muestra
n <- ((1.96**2) * ((1336/3989) * (1 - (1336/3989)))) / (0.02**2)
n <- round(n)

# Tamaño de meustra para proporciones
set.seed(00065280) # Establecer una semilla para reproducibilidad
tamano_muestra <- n # Reemplaza 'n' con el tamaño deseado de la muestra
Muestra <- Data[sample(nrow(Data), tamano_muestra), ]


# Muestreo aleatorio
library(zoo)

# Reemplazar NA por la mediana en variables numéricas
Muestra$appeared <- na.aggregate(Muestra$appeared, FUN = median)
Muestra$lastActivity <- na.aggregate(Muestra$lastActivity, FUN = median)
Muestra$numberOfUsers <- na.aggregate(Muestra$numberOfUsers, FUN = median)

# Reemplazar NA por la moda en variables categóricas
Mode <- function(x) {
  uniq_x <- unique(x)
  uniq_x[which.max(tabulate(match(x, uniq_x)))]
}
Muestra$type <- na.aggregate(Muestra$type, FUN = function(x) Mode(x)[1])
Muestra$website <- na.aggregate(Muestra$website, FUN = function(x) Mode(x)[1])
Muestra$country <- na.aggregate(Muestra$country, FUN = function(x) Mode(x)[1])

```

APPEARED{data-navmenu="Variables Cuantitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Histograma
```{r}

histograma <- ggplot(data = Muestra, aes(x = appeared)) +
  geom_histogram(bins = 63, color = "#000000", fill ="dodgerblue") +
  labs(title = "Histograma de 'appeared' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))
  
fig <- ggplotly(histograma)
fig

```


### Densidad

```{r}

DensityAPP <- ggplot(data = Muestra, aes(x = appeared)) +
  geom_density() +
  labs(title = "Densidad de 'appeared' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(DensityAPP)
```


### Boxplot

```{r}
box_APP =ggplot(data = Muestra, aes(x = "", y = appeared)) + 
          geom_boxplot(outlier.shape = NA) +
          geom_jitter(shape = 17,colour = "#7AC5CD", size = 0.7)+
          labs(title = "Boxplot de 'appeared' en Muestra")+
          theme(plot.title = element_text(hjust = 0.5))

ggplotly(box_APP)

```

### Q-Q

```{r}
qqAPP = ggplot(Muestra, aes(sample=appeared)) +
  stat_qq(color='#7AC5CD') + 
  stat_qq_line()+
  labs(title = "Grafico Q-Q de 'appeared' en Muestra")+
  theme(plot.title = element_text(hjust = 0.5))
ggplotly(qqAPP)
```






Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 2)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```










LAST ACTIVITY{data-navmenu="Variables Cuantitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Histograma
```{r}
histogramaLA <- ggplot(data = Muestra, aes(x = lastActivity)) +
  geom_histogram(bins = 63, color = "#000000", fill ="dodgerblue") +
  labs(title = "Histograma de 'lastActivity' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(histogramaLA)
```


### Densidad

```{r}
DensityLA <- ggplot(data = Muestra, aes(x = lastActivity)) +
  geom_density() +
  labs(title = "Densidad de 'lastActivity' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(DensityLA)
```


### Boxplot

```{r}
box_LA =ggplot(data = Muestra, aes(x = "", y = lastActivity)) + 
          geom_boxplot(outlier.shape = NA) +
          geom_jitter(shape = 17,colour = "#7AC5CD", size = 0.7)+
          labs(title = "Boxplot de 'lastActivity' en Muestra")+
          theme(plot.title = element_text(hjust = 0.5))

ggplotly(box_LA)
```

### Q-Q

```{r}
qqLA = ggplot(Muestra, aes(sample=lastActivity)) +
  stat_qq(color='#7AC5CD') + 
  stat_qq_line()+
  labs(title = "Grafico Q-Q de 'lastActivity' en Muestra")+
  theme(plot.title = element_text(hjust = 0.5))
ggplotly(qqLA)
```


Rows {data-width=400}
---------------
### Conclusiones
Teniendo en cuenta las graficas de la variable 'lastActivity' podemos inferir que:

* Tanto el histograma como el gráfico de densidad exhiben un sesgo hacia la derecha, lo que indica una clara asimetría en la distribución de los datos y una cola más larga hacia los valores superiores, evidenciando que la distribución no es normal, afirmacion que es ratficada en el grafico Q-Q

* Por otro lado, aunque el Boxplot no muestra valores atípicos, sí revela un sesgo hacia los valores altos de la variable.

 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 4)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```


NUMBER OF USERS{data-navmenu="Variables Cuantitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Histograma
```{r}

histogramaNU <- ggplot(data = Muestra, aes(x = numberOfUsers)) +
  geom_histogram(bins = 50, color = "#000000", fill ="dodgerblue") +
  labs(title = "Histograma de 'numberOfUsers' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(histogramaNU)
```


### Densidad

```{r}

DensityNU <- ggplot(data = Muestra, aes(x = numberOfUsers)) +
  geom_density() +
  labs(title = "Densidad de 'lastActivity' en Muestra") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(DensityNU)
```


### Boxplot

```{r}
box_NU =ggplot(data = Muestra, aes(x = "", y = numberOfUsers)) + 
          geom_boxplot(outlier.shape = NA) +
          geom_jitter(shape = 17,colour = "#7AC5CD", size = 0.7)+
          labs(title = "Boxplot de 'lastActivity' en Muestra")+
          theme(plot.title = element_text(hjust = 0.5))

ggplotly(box_NU)

```

### Q-Q

```{r}

qqNU = ggplot(Muestra, aes(sample=numberOfUsers)) +
  stat_qq(color='#7AC5CD') + 
  stat_qq_line()+
  labs(title = "Grafico Q-Q de 'lastActivity' en Muestra")+
  theme(plot.title = element_text(hjust = 0.5))
ggplotly(qqNU)
```

Rows {data-width=400}
---------------
### Conclusiones
Considerando las gráficas analizadas, se puede concluir que la variable 'numberOfUser' exhibe características distintivas:

* Tanto el gráfico Q-Q como el Boxplot revelan la existencia de numerosos valores atípicos (outliers). Esta observación sugiere que los datos presentan una gran variabilidad y no se distribuyen normalmente, ya que los valores extremos afectan la normalidad de la distribución.

* Además, el histograma y el gráfico de densidad muestran un sesgo notable hacia la izquierda. Este sesgo indica que hay una concentración significativa de valores en el extremo inferior de la escala, lo que contribuye aún más a la falta de normalidad en los datos.

 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 5)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```

TYPE{data-navmenu="Variables Cualitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Grafico de barras
```{r}
# Gráfico de barras para Type
x=ggplot(Muestra, aes(x = type)) +
  geom_bar(fill ="dodgerblue",color = "#000000") +
  labs(title = "Gráfico de Barras para TYPE")

p= ggplotly(x)
p

```

Rows {data-width=400}
---------------
### Conclusiones
En este análisis de la variable "type" en nuestro conjunto de datos, se identifico patrones y tendencias significativas que arrojan luz sobre la composicion de esta misma. Destaca en gran medida la presencia de la categoría "pl",es decir, lenguaje de programacion que constituye la categoría dominante con una frecuencia absoluta de 1660 elementos, representando aproximadamente el 77.61% del conjunto lo cual nos dice su concurrencia en toda la base datos y lo importancia en la misma.
 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 3)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```


COUNTRY{data-navmenu="Variables Cualitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Grafico de torta
```{r}

values = table(Muestra$country)
labels = names(sort(values,decreasing = T))
values = sort(values,decreasing = T)
fig <- plot_ly(type='pie', labels=labels, values=values, 
                textinfo='label+percent',
                insidetextorientation='radial')
fig
```

Rows {data-width=400}
---------------
### Conclusiones
Se observa una distribución diversa de países de origen entre los elementos de nuestro conjunto. Entre los países más representados, destacan Estados Unidos, Reino Unido y Canadá, que juntos conforman la mayoría de las entradas. Esto sugiere que nuestro conjunto de datos tiene una fuerte presencia de elementos relacionados con estas tres naciones.

La categoría más frecuente es "United States" (Estados Unidos), con una frecuencia absoluta de 1494, lo que representa aproximadamente el 69.85% del conjunto de datos en términos de procedencia geográfica. Le sigue "United Kingdom" (Reino Unido) con una frecuencia absoluta de 85 y "Canada" (Canadá) con 69.

 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 7)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```


WEBSITE{data-navmenu="Variables Cualitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Grafico de barras
```{r}

# Gráfico de barras para Variable3
x=ggplot(Muestra, aes(x = website)) +
  geom_bar(fill ="dodgerblue",color = "#000000") +
  labs(title = "Gráfico de Barras para WEBSITE")
p = ggplotly(x)
p

```


Rows {data-width=400}
---------------
### Conclusiones
Basado en los resultados de la tabla de frecuencia absoluta y relativa de la variable "website", se puede concluir que la mayoría de los lenguajes de programación en nuestro conjunto de datos tienen un sitio web asociado. Específicamente, el 67.42% de los lenguajes de programación no tienen un sitio web, mientras que el 32.59% si lo tienen.

Esto sugiere que no hay tanta presencia de sitios web asociados a los lenguajes de programacion no es común entre los lenguajes de programación en el conjunto de datos. La existencia de sitios web puede ser un indicador de la accesibilidad y disponibilidad de información adicional sobre estos lenguajes, lo que puede ser valioso para los desarrolladores y la comunidad en general.

 
### Datos

```{r}
DT::datatable(data = Muestra[, c(1, 6)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```
TABLAS DE CONTINGENCIA{data-navmenu="Variables Cualitativas"}
==============

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Tablas de contigencia 1 
```{r}
# Calcular la tabla de contingencia entre Type y country
tabla_type_country <- table(Muestra$type, Muestra$country)
kable(tabla_type_country)

```
### Tabla de contigencia 2
```{r}
# Calcular la tabla de contingencia entre country y website
tabla_country_website <- table(Muestra$country, Muestra$website)
kable(tabla_country_website)
```
### Tabla de contingencia 3
```{r}
# Calcular la tabla de contingencia entre website y type
tabla_website_type <- table(Muestra$type, Muestra$website)
kable(tabla_website_type)
```

INTERVALO DE CONFIANZA PARA LA MEDIA {data-navmenu="Preguntas interesantes"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Intervalos de confianza para la media
```{r}

media=mean(Muestra$appeared)

intervalo_superior = media+(qnorm((1+0.90)/2)*(sd(Data$appeared)/sqrt(n)))
intervalo_inferior = media-(qnorm((1+0.90)/2)*(sd(Data$appeared)/sqrt(n)))

intervalo = data.frame(Media = media, Inferior = intervalo_inferior, Superior = intervalo_superior)

# Crea el gráfico de barras con intervalos de confianza
int = ggplot(intervalo, aes(x = "Media", y = Media)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.5) +
  geom_errorbar(aes(ymin = Inferior, ymax = Superior), width = 2, color = "skyblue") +
  coord_flip() +
  ylim(intervalo_inferior - 2, intervalo_superior + 2) +
  labs(title = "Intervalo de Confianza para la Media Poblacional", y = "APPEARED") +
  theme_minimal()

ggplotly(int)

```


Rows {data-width=400}
---------------
### Pregunta problema
<div style="font-size:24px;">Se tiene una base de datos con los años de aparición de los lenguajes de programación entre los años 1960 y 2023, los cuales presentan una desviación estándar de 16.28. Si se tiene una muestra aleatoria de 2139 lenguajes, los cuales en promedio aparecieron en el año 1996.63, calcule un intervalo de confianza del 90% para el verdadero año de aparición medio de los lenguajes de programación</div>

 
### Respuesta
* Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la media poblacional, teniendo conocimiento de la desviación típica de la población de la variable appeared. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico.

* Podemos concluir que, con un nivel de confianza del 90%, la media poblacional del año de aparición de los lenguajes de programación de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21.


INTERVALO DE CONFIANZA PARA VARIANZA Y DESVIACION {data-navmenu="Preguntas interesantes"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Intervalos de confianza para la varianza
```{r}
desviacion = sd(Muestra$lastActivity)

intervalo_superior = ((n-1)*desviacion**2)/qchisq(0.025,n-1)

intervalo_inferior = ((n-1)*desviacion**2)/qchisq(1-0.025,n-1)

intervalo = data.frame(Varianza = desviacion^2, Inferior = intervalo_inferior, Superior = intervalo_superior)

# Crea el gráfico de barras con intervalos de confianza
fig3 = ggplot(intervalo, aes(x = "Varianza", y = Varianza)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.5) +
  geom_errorbar(aes(ymin = Inferior, ymax = Superior), width = 10, color = "purple") +
  coord_flip()+
  ylim(intervalo_inferior-2, intervalo_superior+2) +
  labs(title = "Intervalo de Confianza para la Varianza", y = "Varianza LASTACTIVITY") +
  theme_minimal()

ggplotly(fig3)

```

### Intervalos de confianza para la desviacion
```{r}

desviacion = sd(Muestra$lastActivity)

intervalo_superior = ((n-1)*desviacion)/qchisq(0.025,n-1)

intervalo_inferior = ((n-1)*desviacion)/qchisq(1-0.025,n-1)

intervalo = data.frame(Desviacion = desviacion, Inferior = intervalo_inferior, Superior = intervalo_superior)


fig3 = ggplot(intervalo, aes(x = "Desviacion", y = Desviacion)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.5) +
  geom_errorbar(aes(ymin = Inferior, ymax = Superior), width = 2.5, color = "purple") +
  coord_flip()+
  ylim(intervalo_inferior-2, intervalo_superior+2) +
  labs(title = "Intervalo de Confianza para la Desviacion", y = "Desviacion LASTACTIVITY") +
  theme_minimal()

ggplotly(fig3)

```


Rows {data-width=400}
---------------
### Pregunta problema
<div style="font-size:24px;">Se tiene una muestra aleatoria de 2139 tecnologías informáticas con sus respectivos años de última modificación, los cuales presentan una desviación típica de 16.92. Teniendo esto en cuenta, calcule un intervalo de confianza del 95% para la varianza y la desviación estándar</div>

 
### Respuesta
* Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la varianza y la desviación, teniendo conocimiento de la desviación típica de la población de la variable LASTACTIVITY. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico para los dos estadísticos.

* Podemos concluir que, con un nivel de confianza del 95%, la varianza poblacional del último año de modificación de las tecnologías informáticas de nuestra base de datos se encuentra entre los valores de 269.96 y 304.36.

* Por otro lado, la desviación poblacional de la variable LASTACTIVITY podemos afirmar que se encuentra en un rango de 15.95 y 17.98 con un nivel de confianza del 95%.

DIFERENCIA ENTRE PROPORCIONES {data-navmenu="Preguntas interesantes"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Diferencia de proporciones
```{r}
# Definir los datos
n1 <- 1494
n2 <- 85
x1 <- 1147
x2 <- 76

# Calcular las proporciones
p1 <- x1 / n1
p2 <- x2 / n2

# Calcular la diferencia de proporciones
diff_prop <- p1 - p2

# Calcular el error estándar de la diferencia
SE <- sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))

# Nivel de confianza (90%)
alpha <- 0.1

# Calcular el valor crítico z
z <- qnorm(1 - alpha/2)

# Calcular el intervalo de confianza
CI_lower <- diff_prop - z * SE
CI_upper <- diff_prop + z * SE


# Crear un DataFrame para graficar el intervalo de confianza
data <- data.frame(Group = "Diferencia", Lower = CI_lower, Upper = CI_upper)

p=ggplot(data, aes(x = Group, y = Upper)) +
  geom_errorbar(aes(ymin = 0, ymax = Upper), width = 0.2, color = "black") +
  labs(title = "Intervalo de Confianza del 90% para Diferencia de Proporciones",
       y = "Intervalo de Confianza") +
  theme_minimal()
x=ggplotly(p)
x

```


Rows {data-width=600}
---------------
### Pregunta problema
<div style="font-size:20px;">En una muestra de paises donde se les encuesto que lenguaje de tipo de lenguaje de programacion usaron, la muestra contiene 1494 de estados unidos, donde se uso el lenguaje de programacion pl 1147; y reino unido 85 donde 76 eran pl. Calcule un intervalo de confianza de 90% para la diferencia entre la proporcion entre el tipo de lenguaje de programacion en estos paises ¿Hay una diferencia significativa entre las dos proporciones?</div>



### Respuesta

* Podemos concluir que con un nivel de confianza del 90% diferencia de las proporciones del tipo de lenguaje que mas se usaba en la epoca de nuestra base de datos se encuentra entre los valores de -0.1841 y -0.0686

* En resumen, el intervalo de confianza indica que hay una diferencia significativa en las proporciones del tipo de lenguaje de programación entre los dos grupos, y esta diferencia sugiere que el tipo de lenguaje era más común en Estados Unidos que en el Reino Unido en la época de tu base de datos.

####################################
PROPORCION {data-navmenu="Preguntas interesantes"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Diferencia de proporciones
```{r}

# Datos
n <- 2139  # Tamaño de la muestra
x <- 1660  # Número de casos favorables (uso de desarrollo "pl")

# Proporción muestral
p_hat <- x / n

# Nivel de confianza (99%)
alpha <- 0.01

# Estadístico z crítico para un nivel de confianza del 99%
z <- qnorm(1 - alpha/2)

# Error estándar de la proporción
SE <- sqrt(p_hat * (1 - p_hat) / n)

# Calcular el intervalo de confianza
CI_lower <- p_hat - z * SE
CI_upper <- p_hat + z * SE

# Crear un dataframe para el gráfico
intervalo_df <- data.frame(
  Categoria = c("Intervalo de Confianza"),
  Valor = c(CI_lower, CI_upper)
)

# Gráfico de barras con intervalo de confianza
library(ggplot2)

grafico_intervalo <- ggplot(intervalo_df, aes(x = Categoria, y = Valor)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.5) +
  geom_errorbar(aes(ymin = CI_lower, ymax = CI_upper), width = 0.2, color = "blue") +
  labs(title = "Intervalo de Confianza del 99% para la Proporción de Uso de 'pl'",
       y = "Intervalo de Confianza") +
  theme_minimal()
x=ggplotly(grafico_intervalo)
x
```


Rows {data-width=750}
---------------
### Pregunta problema
<div style="font-size:24px;"> En una muestra aleatoria 2139 de un tipo lenguajes de programacion se encuentra que usan el tipo de lenguaje pl en una razon de 1660 para uso de desarrollo. Calcule el intervalo de confianza del 99% para la proporcion de tipos de lenguajes de programacion.</div>

### Respuesta

* En resumen, con un nivel de confianza del 99%, podemos concluir que la proporción de uso del tipo de lenguaje "pl" en la población se encuentra muy probablemente dentro del intervalo [0.7528, 0.7993], y el estimado de la proporción en la muestra es aproximadamente 0.7761.

















APPEARED - LAST_ACTIVITY{data-navmenu="Analisis bivariado"}
=======================

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Dispersion
```{r}

dispersion = ggplot(Muestra, aes(x = lastActivity , y = appeared)) +
              geom_point() +
              geom_smooth(method = "lm", se = F, color = "dodgerblue") +
              labs(title = "Grafico de dispersion lastActivity vs appeared", x = "LAST ACTIVITY", y = "APPEARED")+
              theme(plot.title = element_text(hjust = 0.5))
  
fig <- ggplotly(dispersion)
fig

```


### Residuos Estandarizados

```{r}

modelo <- lm(appeared ~ lastActivity, data = Muestra)
residuos2 <- scale(resid(modelo))

RE=ggplot() +
    geom_point(aes(x = Muestra$appeared, y = residuos2)) +
    geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
    labs(title = "Gráfico de residuos estandarizados", x = "APPEARED", y = "Residuos Estandarizados")+
    theme(plot.title = element_text(hjust = 0.5))

ggplotly(RE)
```


### Q-Q

```{r}
modelo <- lm(appeared  ~ lastActivity, data = Muestra)
residuos <- resid(modelo)

qqAPP <- ggplot(data = NULL, aes(sample = residuos)) +
  stat_qq(color = '#7AC5CD') +
  stat_qq_line() +
  labs(title = "Gráfico Q-Q de residuos", x = "Theorical Quantiles", y = "Sample Quantiles") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(qqAPP)

```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}

covar_xy = cov(Muestra$lastActivity, Muestra$appeared)

correlacion_xy = cor(Muestra$lastActivity, Muestra$appeared)

modelo = lm(appeared ~ lastActivity, data = Muestra)
intercepto = coef(modelo)[1]
coeficiente = coef(modelo)[2]
ecuacion = paste("y =", round(intercepto, 2), "+", round(coeficiente, 2), "x")

coef_determinacion = summary(modelo)$r.squared

SCE = sum(modelo$residuals^2)

SCR = sum((predict(modelo) - mean(Muestra$appeared))^2)

variabilidad = SCE/(n-2)


tabla <- data.frame(
  Estadisticos = c("Modelo","Covarianza", "Correlacion", "Coefiente de determinacion", "SCE", "SCR", "Varibilidad total"),
  Valores = c(ecuacion ,covar_xy, correlacion_xy, coef_determinacion, SCE, SCR, variabilidad)
)

# Crear la tabla con DT::datatable
datatable(data = tabla[, c("Estadisticos", "Valores")],
          extensions = 'Scroller',
          options = list(dom = 'tp',  
                         class = 'stripe compact hover cell-border'))




```

APPEARED - NUMBER OF USERS{data-navmenu="Analisis bivariado"}
=======================

Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Dispersion
```{r}

dispersion = ggplot(Muestra, aes(x = appeared , y = numberOfUsers)) +
              geom_point() +
              geom_smooth(method = "lm", se = F, color = "dodgerblue") +
              labs(title = "Grafico de dispersion apperared vs numberOfUsers", x = "APPEARED", y = "NUMBER OF USERS")+
              theme(plot.title = element_text(hjust = 0.5))+scale_y_log10()
  
fig <- ggplotly(dispersion)
fig

```


### Residuos Estandarizados

```{r}

modelo <- lm(numberOfUsers ~ appeared, data = Muestra)
residuos2 <- scale(resid(modelo))

RE=ggplot() +
    geom_point(aes(x = Muestra$appeared, y = residuos2)) +
    geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
    labs(title = "Gráfico de residuos estandarizados", x = "APPEARED", y = "Residuos Estandarizados")+
    theme(plot.title = element_text(hjust = 0.5))+ylim(-20, 20)

ggplotly(RE)
```


### Q-Q

```{r}
modelo <- lm(numberOfUsers ~ appeared, data = Muestra)
residuos <- resid(modelo)

qqAPP <- ggplot(data = NULL, aes(sample = residuos)) +
  stat_qq(color = '#7AC5CD') +
  stat_qq_line() +
  labs(title = "Gráfico Q-Q de residuos", x = "Theorical Quantiles", y = "Sample Quantiles") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(qqAPP)

```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}

covar_xy = cov(Muestra$appeared, Muestra$numberOfUsers)

correlacion_xy = cor(Muestra$appeared, Muestra$numberOfUsers)

modelo = lm(numberOfUsers ~ appeared, data = Muestra)
intercepto = coef(modelo)[1]
coeficiente = coef(modelo)[2]
ecuacion = paste("y =", round(intercepto, 2), "+", round(coeficiente, 2), "x")

coef_determinacion = summary(modelo)$r.squared

SCE = sum(modelo$residuals^2)

SCR = sum((predict(modelo) - mean(Muestra$appeared))^2)

variabilidad = SCE/(n-2)


tabla <- data.frame(
  Estadisticos = c("Modelo","Covarianza", "Correlacion", "Coefiente de determinacion", "SCE", "SCR", "Varibilidad total"),
  Valores = c(ecuacion ,covar_xy, correlacion_xy, coef_determinacion, SCE, SCR, variabilidad)
)

# Crear la tabla con DT::datatable
datatable(data = tabla[, c("Estadisticos", "Valores")],
          extensions = 'Scroller',
          options = list(dom = 'tp',  
                         class = 'stripe compact hover cell-border'))




```

LAST_ACTIVITY - NUMBER OF USERS{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Dispersion
```{r}

dispersion = ggplot(Muestra, aes(x = lastActivity , y = numberOfUsers)) +
              geom_point() +
              geom_smooth(method = "lm", se = F, color = "dodgerblue") +
              labs(title = "Grafico de dispersion lastActivity vs numberOfUsers", x = "LAST ACTIVITY", y = "NUMBER OF USERS")+
              theme(plot.title = element_text(hjust = 0.5))+scale_y_log10()
  
fig <- ggplotly(dispersion)
fig

```


### Residuos Estandarizados

```{r}

modelo <- lm(numberOfUsers ~ lastActivity, data = Muestra)
residuos2 <- scale(resid(modelo))

RE=ggplot() +
    geom_point(aes(x = Muestra$lastActivity, y = residuos2)) +
    geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
    labs(title = "Gráfico de residuos estandarizados", x = "LAST ACTIVITY", y = "Residuos Estandarizados")+
    theme(plot.title = element_text(hjust = 0.5))+ylim(-20, 20)

ggplotly(RE)
```


### Q-Q

```{r}
modelo <- lm(numberOfUsers ~ lastActivity, data = Muestra)
residuos <- resid(modelo)

qqAPP <- ggplot(data = NULL, aes(sample = residuos)) +
  stat_qq(color = '#7AC5CD') +
  stat_qq_line() +
  labs(title = "Gráfico Q-Q de residuos", x = "Theorical Quantiles", y = "Sample Quantiles") +
  theme(plot.title = element_text(hjust = 0.5))

ggplotly(qqAPP)

```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}

covar_xy = cov(Muestra$lastActivity, Muestra$numberOfUsers)

correlacion_xy = cor(Muestra$lastActivity, Muestra$numberOfUsers)

modelo = lm(numberOfUsers ~ lastActivity, data = Muestra)
intercepto = coef(modelo)[1]
coeficiente = coef(modelo)[2]
ecuacion = paste("y =", round(intercepto, 2), "+", round(coeficiente, 2), "x")

coef_determinacion = summary(modelo)$r.squared

SCE = sum(modelo$residuals^2)

SCR = sum((predict(modelo) - mean(Muestra$lastActivity))^2)

variabilidad = SCE/(n-2)


tabla <- data.frame(
  Estadisticos = c("Modelo","Covarianza", "Correlacion", "Coefiente de determinacion", "SCE", "SCR", "Varibilidad total"),
  Valores = c(ecuacion ,covar_xy, correlacion_xy, coef_determinacion, SCE, SCR, variabilidad)
)

# Crear la tabla con DT::datatable
datatable(data = tabla[, c("Estadisticos", "Valores")],
          extensions = 'Scroller',
          options = list(dom = 'tp',  
                         class = 'stripe compact hover cell-border'))




```

APPEARED - TYPE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots type vs appeared", y = "APPEARED")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```


### Beeswarm

```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
  geom_beeswarm()+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarn type vs appeared", y = "APPEARED")+
  theme(plot.title = element_text(hjust = 0.5))
  


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 2, 3)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```


LAST_ACTIVITY - TYPE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots type vs lastActivity", y = "LAST ACTIVITY")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```


### Beeswarm

```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
  geom_beeswarm(cex = 0.1)+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarm type vs lastActivity", y = "LAST ACTIVITY")+
      theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 4, 3)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























NUMBER OF USERS - TYPE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots type vs numberOfUsers", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))+ ylim(-12000,600000)

ggplotly(BX)

```
### Boxplots escala log10
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots type vs numberOfUsers escala log10", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))+scale_y_log10()

ggplotly(BX)

```

### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 TYPE = sample(Muestra$type))

BX =ggplot(df, aes(x = TYPE, y = y, fill = TYPE)) + 
  geom_beeswarm(cex = 0.1)+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarm type vs numberOFUsers", y = "NUMBER OF USERS")+
  theme(plot.title = element_text(hjust = 0.5))+ylim(-12000,6000000)


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 5, 3)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```


NUMBER OF USERS - COUNTRY{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots country vs numberOfUsers", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))+ ylim(-12000,600000)

ggplotly(BX)

```
### Boxplots escala log10
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots country vs numberOfUsers escala log10", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))+scale_y_log10()

ggplotly(BX)

```

### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
  geom_beeswarm(cex = 0.1)+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarm country vs numberOfUsers", y = "NUMBER OF USERS")+
  theme(plot.title = element_text(hjust = 0.5))+ylim(-12000,6000000)


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 7, 5)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























LAST_ACTIVITY - COUNTRY{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots country vs lastActivity", y = "LAST_ACTIVITY")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```
### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
  geom_beeswarm(cex = 0.1)+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarm country vs lastActivity", y = "LAST_ACTIVITY")+
  theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 7, 4)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























APPEARED - COUNTRY{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots country vs appeared", y = "APPEARED")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```
### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 COUNTRY = sample(Muestra$country))

BX =ggplot(df, aes(x = COUNTRY, y = y, fill = COUNTRY)) + 
  geom_beeswarm(cex = 0.5)+
  theme(axis.text.x = element_blank())+
  labs(title = "Beeswarm country vs appeared", y = "APPEARED")+
  theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 7, 2)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























APPEARED - WEBSITE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots website vs appeared", y = "APPEARED")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```
### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$appeared,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
  geom_beeswarm(cex = 0.5)+
  labs(title = "Beeswarm website vs appeared", y = "APPEARED")+
  theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 6, 2)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























LAST_ACTIVITY - WEBSITE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots website vs lastActivity", y = "LAST_ACTIVITY")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```
### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$lastActivity,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
  geom_beeswarm(cex = 0.2)+
  labs(title = "Beeswarm website vs lastActivity", y = "LAST_ACTIVITY")+
  theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 6, 4)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```



























NUMBER OF USERS - WEBSITE{data-navmenu="Analisis bivariado"}
=======================
Rows {data-width=600, .tabset}
-----------------------------------------------------------------------
### Boxplots
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots website vs numberOfUsers", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))

ggplotly(BX)

```
### Boxplots escala log10
```{r}
set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
      stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
      geom_boxplot()+
      theme(axis.text.x = element_blank())+
      labs(title = "Boxplots website vs numberOfUsers escala log10", y = "NUMBER OF USERS")+
      theme(plot.title = element_text(hjust = 0.5))+scale_y_log10()

ggplotly(BX)

```


### Beeswarm
```{r}

set.seed(00065280)
df <- data.frame(y = Muestra$numberOfUsers,
                 WEBSITE = sample(Muestra$website))

BX =ggplot(df, aes(x = WEBSITE, y = y, fill = WEBSITE)) + 
  geom_beeswarm(cex = 0.01)+
  labs(title = "Beeswarm website vs numberOfUsers", y = "NUMBER OF USERS")+
  theme(plot.title = element_text(hjust = 0.5))


ggplotly(BX)
```


Rows {data-width=400}
---------------
### Conclusiones
Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

* El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

* Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual  indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

 
### Estadisticos
```{r}
DT::datatable(data = Muestra[, c(1, 6, 5)], 
              extensions = 'Scroller',
              options = list(dom='tp',  
                             class = 'stripe compact hover cell-border'))

```